تصحیح خودکار دادهها مبتنی بر وابستگی تابعی و سیستم یادگیری مرکب
نویسندگان
چکیده مقاله:
صحت دادهها یکی از مهمترین ابعاد کیفیت دادهها بهشمارمیرود. با توجه به حجم بالای منابع دادهای نیاز به روشهایی خودکار وجود دارد. در این مقاله راهکاری خودکار برای تصحیح دادههایی با انواع دادهای متفاوت ارائه شده است. در این راهکار در ابتدا رکوردهایی که احتمالاً حاوی ویژگی خطا است با استفاده از وابستگی تابعی شناساییمیگردد، بدینصورت که رکوردی که به ازای یک وابستگی تابعی با بیش از از رکوردها در تناقض باشد، مشکوک به خطا است. سپس به ازای هر ویژگی از منبع داده مورد بررسی، سیستم یادگیری مرکب ساختهمیشود. سیستم یادگیری مرکب از سه طبقهبند بیز، درخت تصمیم و شبکه عصبی MLP تشکیلشده است و دارای استراتژی ترکیب رأی اکثریت است. سیستم یادگیری مرکب بهوسیله رکوردهای صحیح شناساییشده مورد آموزش قرارداده میشود. پس از آموزش طبقهبندها، هر ویژگی غلط بهعنوان کلاس هدف سیستم یادگیریمرکب قرارمیگیرد و مقداری برای آن پیشبینیمیگردد. روش پیشنهادی قادراست چندین خطا در یک رکورد را شناسایی نماید. آزمایشها نشانمیدهد که true negative rate الگوریتم پیشنهادی در بخش تشخیص خطا بهطور متوسط 93.7% و در بخش تصحیح خطا بهطور متوسط 90.6% است. همچنین آزمایشها نشانمیدهد که میزان پارامترهای ارزیابی در الگوریتم پیشنهادی در مقایسه با دو الگوریتم مشابه مبتنی بر وابستگی تابعی بهبود داشته است.
منابع مشابه
شبکه عصبی فازی خودکار مبتنی بر جمعیت برای یادگیری آنلاین مبتنی بر دانش
در این مقاله، یک سیستم پیوندگرای فازی جدید برای یادگیری آنلاین تدریجی و کشف دانش، به نام شبکه عصبی فازی خودکار مبتنی بر جمعیت (pafunn) با جزئیات نشان داده است. pafunn از طریق یادگیری تدریجی تکامل پیدا می کند. اتصالات و نرون های جدید، بر اساس جمعیت نمونه ها ایجاد می شوند، در حالی که در سیستمی عمل می کنند که مزیت کنترل تعدادی از نرون های درگیر در آن را داشته و منجر به پیچیدگی کمتر شبکه می شوند. ا...
متن کاملبررسی اثربخشی آموزشی مؤلفه های یادگیری خودگردان مبتنی بر مدل پینتریج، بر خودکار آمدی
این پژوهش با هدف هنجاریابی و بررسی ساختار عاملی مقیاس یادگیری خود تنظیمی به عنوان صلاحیت میان بر نامه ای در بین دانش آموزان دختر و پسر سال اول دبیرستان های دولتی شهرستان مشهد به اجرا در آمد. نمونه ای با حجم ۸۴۰ نفر از دانش آموزان، به روش نمونه گیری خوشه ای چند مرحله ای انتخاب و پرسشنامه مذکور که شامل ۵۲ سؤال و ۱۴ عامل بود با طیف لیکرتی در مقیاس چهار درجه ای در مورد آنها اجرا گردید و نهایتاً ۸۳۳ ...
متن کاملتصحیح خودکار خطا در درخت بانک نحوی با استفاده از یادگیری ماشینی انتقال محور
The Treebank is one of the most useful resources for supervised or semi-supervised learning in many NLP tasks such as speech recognition, spoken language systems, parsing and machine translation. Treebank can be developded in different ways that could be, generally, categorized in manually and statistical approaches. While the resulted Treebank in each of these methods has the annotation error,...
متن کاملمقایسه تأثیر وضعیت طاق باز و دمر بر وضعیت تنفسی نوزادان نارس مبتلا به سندرم دیسترس تنفسی حاد تحت درمان با پروتکل Insure
کچ ی هد پ ی ش مز ی هن ه و فد : ساسا د مردنس رد نامرد ي سفنت سرتس ي ظنت نادازون داح ي سکا لدابت م ي و نژ د ي سکا ي د هدوب نبرک تسا طسوت هک کبس اـه ي ناـمرد ي فلتخم ي هلمجزا لکتورپ INSURE ماجنا م ي دوش ا اذل . ي هعلاطم ن فدهاب اقم ي هس عضو ي ت اه ي ندب ي عضو رب رمد و زاب قاط ي سفنت ت ي هـب لاتـبم سراـن نادازون ردنس د م ي سفنت سرتس ي لکتورپ اب نامرد تحت داح INSURE ماجنا درگ ...
متن کاملترکیب خودکار سرویسها مبتنی بر گراف رنگآمیزی
سرویسهای وب بهعنوان مؤلفههای نرمافزاری مستقل توسط ارائهدهندگان سرویس بر روی اینترنت منتشر شده و توسط درخواستکنندگان سرویس برای رسیدن به اهداف مختلف فراخوانی میشوند. با این حال در بسیاری از موارد هیچ سرویسی بهتنهایی در مخزن سرویس یافت نمیشود که بتواند رضایت درخواستکننده را برآورده سازد. ترکیب سرویس، مؤلفههای جدیدی را با استفاده از یک مدل تعاملی برای سرعت بخشیدن به برنامهها ایجاد میک...
متن کاملتصحیح خودکار خطا در درخت بانک نحوی با استفاده از یادگیری ماشینی انتقال محور
درخت بانک یکی از پرکاربردترین منابع در به کارگیری روش های یادگیری باسرپرستی و نیمه سرپرستی در سامانه های پردازش زبان های طبیعی مانند ابزارهای شناسایی گفتار، تحلیلگرهای نحوی و نرم افزارهای مترجم ماشینی است. روش های مختلفی جهت تولید درخت بانک وجود دارد که می توان آن ها را به دو طبقه ی اصلی، روش های تولید دستی و روش های تولید خودکار تقسیم کرد. در هر یک از این روش ها، درخت بانک حاصل دارای خطاهایی ه...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
عنوان ژورنال
دوره 48 شماره 2
صفحات 797- 814
تاریخ انتشار 2018-08-23
با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.
کلمات کلیدی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023